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摘 要 : [目的 /意义 ] 为 提高 标签 质量 ,优化 社会 标注 系统 的 信息 服务 提供 依据 ,从 用 户 在 社会 标注 系统 中 与 其 他 用 户 交 
互 的 视角 ,探讨 不 同 交互 特征 用 户 的 标注 行为 差异 。| 方法 “过程 以 豆 关 读书 作为 社会 标注 系统 研究 样本 ,从 标 
签 数量 、 标 签 结 构 、 标 签 语义 、 标 注 动 机 和 活跃 度 五 个 角度 研究 豆 闪 用 户 标注 行为 的 分 布 特征 ;使 用 用 户 的 关注 人 
数 、 被 关注 人 数 和 使 用 年 限 表 征 其 在 社会 标注 系统 中 与 其 他 用 户 的 关联 和 交互 程度 ,通过 差异 性 分 析 探讨 不 同 交 
互 特 征用 户 标 注 行为 的 差异 ,并 通过 多 元 回归 分 析 研 究 交互 特征 对 这 种 差异 影响 的 程度 。[ 结果 /结论 ] 实证 研 
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究 表明 ,不 同 交互 特征 的 用 户 间 的 社会 标注 行为 存在 显著 差异 :与 其 他 用 户 交 互 比较 强 的 用 户 标签 数据 集 包 含 更 
多 的 标签 ,关注 其 他 用 户 越 多 的 用 户 和 被 越 多 用 户 关注 的 用 户 所 使 用 的 标签 数量 越 多 ;使 用 豆 闪 读书 年 限 越 长 的 
AP ,其 平均 标签 长 度 和 标签 重用 率 越 大 ,而 其 与 其 他 用 户 的 关注 关系 对 其 标签 平均 长 度 和 标签 重用 率 的 影响 不 
大 ;用 户 的 特殊 语种 标签 比 受 用 户 的 使 用 年 限 影响 很 大 ,但 一 个 用 户 被 多 少 人 关注 不 会 显著 的 影响 其 特殊 语种 标 
签 比 ;关注 其 他 用 户 越 多 的 用 户 在 标注 系统 中 越 活 跃 。 由 此 可 见 , 社 会 标注 系统 可 以 采取 措施 加 强 系 统 中 用 户 间 
的 交互 ,通过 用 户 间 的 相互 作用 规范 用 户 的 社会 标注 行为 ,从 而 提高 标签 质量 。 


yu 


.全 社会 标注 系统 是 Web2. 0 的 一 个 重要 应 用 ,是 一 
AFER AN .管理 和 分 类 网 络 资 源 的 系统 。 在 社会 标 
注 车 统 这 个 自由 开放 的 网 络 环境 里 ,用 户 根据 自身 的 
知 淖 水 平和 认 知 方式 理解 网 络 资源 ,然后 选择 自己 认 
知 缚 构 中 的 词语 对 网 络 资源 添加 自然 语言 (社会 标 
签 ) 。 用 户 可 利用 社会 标注 系统 上 的 标签 进行 信息 组 
织 与 检索 ,从 而 促进 信息 的 传播 与 共享 。 由 于 社会 标 
签 的 标注 采用 自由 标 引 方 式 ,部 分 标签 并 不 能 准确 地 
描述 资源 的 内 容 , 用 户 标注 的 标签 存在 着 标注 随意 无 
序 , 标 签 间 缺乏 语义 关系 等 质量 问题 , 这 在 一 定 程度 
上 影响 了 基于 标签 的 信息 组 织 与 信息 检索 的 效果 。 标 
签 是 用 户 标 注 行为 的 结果 ,因此 自 社会 标注 系统 产生 
以 来 ,用 户 社会 标注 行为 的 研究 就 引起 了 学 者 们 的 持 
续 关注 。 在 已 有 研究 中 ,大 多 选取 描述 标签 的 一 些 量 


化 指标 来 刻画 用 户 的 标注 行为 ,采用 统计 分 析 或 问卷 
调查 方法 ,从 标注 系统 中 用 户 整体 的 标注 行为 ,不同 
类 型 用 户 标注 行为 等 角度 展开 研究 。 但 是 ,在 社会 化 
标注 系统 中 ,用 户 不 但 可 以 基于 个 人 偏好 用 任意 的 词 
语 标 注 网 络 资源 ,还 可 以 与 有 相同 兴趣 的 人 传播 和 分 
享 信息 。 

社会 标注 系统 本 质 上 是 一 个 全 新 的 、 交 互 的 信息 
空间 ， ,因此 在 对 用 户 社会 标注 行为 的 研究 中 不 能 只 
根据 用 户 的 客观 特征 进行 分 类 ,还 应 该 考虑 用 户 在 社 
会 标注 系统 中 与 其 他 用 户 的 各 种 交互 行为 所 带 来 的 用 
户 标注 行为 的 差异 。 深 入 理解 用 户 标 注 行为 ,为 优化 
社会 标注 系统 的 设计 ,提高 社会 标签 质量 ,改善 基于 标 
签 的 信息 组 织 与 信息 检索 提供 一 定 的 理论 依据 。 


* 本 文系 南京 农业 大 学 中 央 高 校 基本 科研 业务 费 专项 资金 "多 元 化 视角 的 用 户 标注 行为 及 影响 因素 研究 ”( 项 目 编号 :KYZ201864) 和 南京 农 


业 大 学 2018 年 国家 大 学 生 创 新 训练 计划 项 目 “ 豆 办 用 户 标注 行为 差异 


性 研究 ”( 项目 编号 ;20181037077 ) 研究 成 果 之 一 。 


作者 简介 : 庄 倩 (ORCID :0000 - 0002 -0984 -4723 ) ,讲师 ,博士 ,E-mail:zhuangqian@njau. edu. en ; 3% #4 4 ( ORCID :0000 -0003 -4587 - 9509 ) , 


ASBIHE ; He YE AR (0000 -0003 -2923 - 9640) ,本 科 生 ; 刘 丽 霞 (0000 -0002 -6310 -2157 ) ,本 科 生 ;新 雪 宁 (0000 - 0002 - 1331 -7440 ) :本 科 生 。 


收 稿 日 期 :2020 -04 -13 修 回 日 期 :2020 -06 -17 本 文 起 止 页 码 :117 -128 本 文责 任 编辑 : 杜 查 叶 


117 


Dt hier 


第 64 卷 第 20 期 20200 £10 月 


hinay i&d HETI] 
ChinaXiv A 1 ERATY 


1 相关 研究 


1.1 ”用户 标注 行为 的 统计 特征 
理解 用 户 标 注 行为 是 社会 标签 研究 领域 一 个 永恒 
的 话题 。 在 对 用 户 标注 行为 的 研究 中 ,大 多 数 对 用 户 
标注 行为 的 描述 都 是 从 用 户 的 标注 结果 即 标签 入 手 ， 
通过 对 标签 的 统计 特征 来 探讨 用 户 的 标注 行为 。 例 如 
U. Farooq 等 从 标签 增长 .标签 重用 、 标 签 显 隐 性 、 标 答 
歧视 .标签 频率 和 标注 方式 来 分 析 用 户 标签 标注 行 
HV. Mirzace 等 从 每 个 资源 的 标签 数量 标签 的 先 
择 与 使 用 \ 标 注 频率 等 角度 分 析 用 户 标注 动机 对 标注 
行为 的 影响 ” ;X，Wang 等 从 用 户 标签 数量 ,用户 标签 
共享 高 频率 标签 的 使 用 等 角度 分 析 了 StumbleUpon 与 
Delicious 的 用 户 标注 行为 ”;A， Guyot 从 标签 长 度 、 标 
EAL .高 频率 使 用 标签 ,不 同 语言 标签 ,标签 长 尾 性 
等 前 度 对 LibraryThing 中 的 图 书 标签 进行 了 分 析 ;S. 


AC@Qolder 和 B. A. Huberman 对 Delicious 系统 中 用 户 


使 用 标签 的 目的 、 标 签 的 类 型 以 及 资源 上 标签 的 频率 
等 允 方 面 进行 了 用 户 标注 模式 分 析 '” 。 胡 潜 等 从 人 均 


1D 用 户 标注 行为 的 差异 研究 


在 用 户 标注 行为 的 相关 研究 中 ,通过 对 标签 数据 


计 , 分 析 不 同类 型 用 户 标注 行为 差异 的 研究 也 有 
。 其 中 ,不 同 知识 背景 和 个 人 能 力 的 用 户 会 表现 
从 同 的 标注 行为 ,研究 发 现 :美国 用 户 添加 的 标签 个 
数 硅 般 显著 多 于 中 国 和 印度 用 户 中 ,而且 他 们 会 添加 
更 儿 表征 其 主观 判断 或 态度 类 型 的 标签 ;不 同 职业 、 
专业 及 职称 的 科研 用 户 在 标注 行为 上 也 存在 着 差 
异 ，”; 老 用 户 比 新 用 户 更 愿意 共享 标注 成 果 "" ;对 学 
术 文 本 进行 标注 时 专家 用 户 选 择 的 标签 与 原文 的 关键 
词 有 更 高 的 一 致 性 '”1 ;没有 接受 过 人 工 语言 或 “机 读 
语言 "培训 的 用 户 在 进行 标注 时 更 倾向 于 使 用 对 于 目 
标 资源 阐释 功能 更 强 的 复合 词 标签 和 多 字 标 签 "*。 
除 此 之 外 ,也 有 研究 表明 不 同 的 认 知 特征 的 用 户 会 表 
现 出 不 同 的 标注 行为 所 -7 , 像 不 同 认 知 难度 和 认 知 风 
格 的 用 户 会 表现 出 不 同 的 标签 使 用 行为 ”。 通 过 实 
验 研究 还 发 现 不 同 标注 动机 的 用 户 也 表现 出 不 同 的 标 
注 行为 :以 资源 分 类 为 动机 的 用 户 更 倾向 于 使 用 固定 
的 标签 集合 ,而 且 一 类 资源 添加 的 标签 个 数 基本 一 臻 
且 极 少 使 用 同 义 标签 ;而 以 资源 描述 为 动机 的 用 户 , 标 
签 集合 则 比较 开放 , 且 为 每 一 个 资源 添加 的 标签 个 数 
经 常 不 稳定 ,还 经 常 使 用 同 义 标签 '” ;同时 ,标注 动机 


也 会 影响 用 户 的 标注 强度 和 标注 频率 '” 。 
1.3 用户 标 注 行为 的 影响 因素 研究 

在 用 户 标注 行为 的 差异 研究 中 ,人 研究 者 根据 用 户 
的 特征 将 用 户 划分 为 不 同 的 群体 来 研究 他 们 标注 行为 
的 差异 ,本 质 上 就 是 研究 用 户 自身 的 因素 对 社会 标注 
行为 的 影响 。 除 此 之 外 ,社会 标注 系统 和 被 标注 的 资 
源 性 质 等 外 界 环境 因素 也 会 影响 用 户 的 标注 行 
Bs 

社会 化 标注 的 系统 因素 主要 包括 社会 标签 系统 中 
的 功能 .界面 设计 、 标 注 规则 其 他 用 户 的 标签 。 系 统 
因素 对 用 户 标 注 行为 具有 很 大 影响 ,在 这 方面 已 有 的 
研究 主要 关注 系统 中 的 标签 推荐 和 标注 规则 ,以 及 其 
他 用 户 标注 行为 的 影响 。 吴 丹 等 ”从 不 同 的 标签 角 
度 将 武汉 大 学 图 书馆 图 书 标注 与 豆 准 网 图 书 标注 进行 
对 比 ,发 现 了 图 书馆 与 图 书 分 享 网 站 上 用 户 标 注 行为 
的 差异 。 谢 佳 琳 等 ” 以 武汉 大 学 图 书馆 用 户 为 研究 
对 象 ,以 信息 系统 成 功 模 型 为 框架 研究 了 高 校 图 书馆 
标注 系统 质量 对 其 用 户 标注 行为 的 影响 。 庄 倩 等 ” 
以 信息 系统 成 功 模型 为 框架 探讨 了 社会 标注 系统 质量 
对 于 用 户 标 注意 愿 的 影响 。 用 户 的 标注 行为 除了 受 系 
统 本 身 的 功能 和 界面 的 影响 外 ,基于 社会 认同 理论 , 系 
统 的 标注 规则 ,标签 推荐 规则 .其 他 用 户 标注 的 标签 对 
户 的 标注 行为 起 到 更 大 的 作用 , 即 社会 标签 系统 中 
用 户 于 用 户 、 用 户 与 系统 间 的 交互 对 标注 行为 都 有 很 
大 影响 。J. B. Philip “通过 调查 分 析 发 现 社会 认同 
会 影响 用 户 的 标注 行为 ;社会 化 标注 系统 中 的 标签 推 
荐 和 社会 化 标注 系统 中 其 他 用 户 的 社会 标注 行为 具有 
相同 的 功能 ,使 不 同 用 户 的 标签 具有 较 高 的 一 致 性 。 
T. Kowatsch!**! 等 人 通过 实验 研究 发 现 50% 用 户 使 用 
了 提前 加 入 社会 标注 系统 的 预定 义 词语 。C. Dan 
“等 在 MoviLens 推荐 系统 上 的 实验 研究 发 现 :推荐 系 
统 会 引导 用 户 的 标注 行为 趋 于 一 致 性 ,用 户 都 会 受到 
系统 推荐 信息 的 影响 。M. Cameron’! 研究 了 Flickr 用 
户 之 间 的 标签 词汇 的 重 革 问题 ,发 现 是 朋友 关系 的 用 
户 之 间 比 随机 抽取 的 用 户 之 间 在 标签 词汇 有 更 高 的 重 
AE. 

资源 作为 用 户 的 标注 对 象 也 是 影响 标注 行为 的 重 
要 因素 ,如 对 于 图 片 .图书 、 视 频 等 不 同 的 网 络 资源 ,用 
户 的 标签 使 用 行为 有 显著 差别 。Y.， Choi 等 ”等 通过 
对 人 文 领域 数字 化 档案 资料 的 标签 分 析 发 现 , 非 文本 
资源 和 文本 资源 的 平均 标签 数量 和 标签 类 型 有 显著 差 
异 。M. Heckner 等 "研究 了 不 同 的 社会 标签 系统 中 
用 户 标注 行为 ,发 现 用 户 在 标注 不 同 资源 时 使 用 的 标 
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签 类 型 不 同 。 胡 潜 等 ”基于 豆 办 网 的 用 户 数据 进行 了 
实证 分 析 , 发 现 图 书 主题 对 用 户 的 标注 行为 有 显著 的 
So M. Strohmaier 等 5 通过 实证 研究 发 现 用 户 间 
使 用 标签 的 一 致 性 更 多 地 体现 在 对 资源 的 描述 上 ,而 
不 是 在 资源 的 分 类 上 。 

综 上 所 述 ,国内 外 学 者 已 经 选取 标签 个 数 和 标签 
长 度 等 量化 指标 对 不 同类 型 的 用 户 的 标注 行为 差异 及 
可 能 影响 用 户 标 注 行为 的 因素 进行 了 探讨 。 但 社会 标 
注 系统 中 用 户 标 注 行为 的 研究 仍然 是 研究 热点 呈 。 
用 户 为 资源 标注 的 标签 表面 上 可 以 在 个 人 信息 空间 内 
组 织 和 索引 信息 ;然而 ,通过 对 标签 隐 性 的 或 显 性 的 分 
享 和 协作 ,通过 标签 标注 的 信息 能 够 被 其 他 用 户 浏览 
AGA) ,这 体现 了 标签 的 交流 性 质 。 通 过 创建 具 


的 所 有 图 书 加 入 到 资源 集合 中 ,再 获取 标注 资源 集合 
中 每 本 图 书 的 用 户 建立 用 户 集合 ,如 此 迭代 下 去 ,不断 
获取 用 户 的 标注 数据 。 截 止 到 2017 年 12 月 6 日 , 通 
过 清洗 后 共 获 取 用 户 标注 信息 15597 条 。 在 获取 的 数 
据 集中 ,用户 信 息 包括 :用 户 ID .注册 时 间 关注 人 数 、 
被 关注 人 数 和 用 户 从 注册 以 来 标注 的 所 有 标签 。 
2.2 用户 交互 特征 指标 设计 及 分 析 

不 同 的 社会 标注 系统 具有 不 同 的 社会 标注 规则 和 
用 户 标 注 权限 ,本 研究 只 关注 用 户 可 以 自由 标 引 的 广 
义 社会 标注 系统 。 在 这 样 的 在 社会 标注 系统 中 , 允许 
任意 用 户 对 任意 资源 添加 任意 数量 的 非 受 控 自然 语言 
(标签 ) ,用 户 可 以 选择 是 否 查看 某 个 资源 其 他 用 户 标 
注 的 标签 ,也 可 以 选择 其 他 用 户 标 注 过 的 标签 作为 自 
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因素 。 但 通过 上 述 综 


对 各 会 标注 行为 的 影响 ,对 用 户 在 社会 标注 系统 中 与 
其 伪 用 户 的 关联 和 交互 程度 的 不 同 所 产生 的 标注 行为 
模 喜 和 规律 上 的 差异 没有 更 深 一 步 的 研究 。 为 了 更 全 
而 独 统 地 揭示 用 户 标注 行为 的 规律 ,本 文 将 从 用 户 在 


己 的 标签 , 像 Delicious Flicker、 豆 办 网 都 是 这 样 的 社会 
标签 系统 。 由 此 ,在 社会 标注 系统 中 用 户 之 间 通 过 标 
注 的 标签 和 资源 达成 了 信息 交换 ,形成 了 一 定 程度 的 
在 线 社会 化 交互 ” 。 在 像 知 乎 、 微 博 这 类 社交 媒体 
中 ,用 户 间 的 社会 化 交互 可 以 通过 各 种 各 样 的 社交 互 
动 功能 实现 ,如 发 布 文章 、 评 论 、 转 发 .收藏 .点 赞 、 关 
TE 分享 等 “  ” 。 但 在 社会 标注 系统 ,用 户 间 的 这 种 
关联 和 交互 很 难 被 捕捉 和 记录 。 用 户 的 标注 行为 过 程 


社会 标注 系统 中 与 其 他 用 户 的 关联 和 交互 程度 的 角度 
对 用 户 进行 分 类 ,研究 不 同 角度 下 用 户 标注 行为 量化 
指标 的 分 布 特征 ,探讨 不 同类 型 用 户 社会 标注 行为 的 
诊治 性 ,从 而 为 社会 标注 系统 提供 个 性 化 ,差异 化 的 用 
户 服务 提供 理论 依据 。 
2 数据 与 量化 指标 设计 

为 了 探讨 用 户 社会 标注 行为 的 差异 ,本文 从 豆 闪 
网 上 采集 用 户 标注 信息 ,根据 用 户 与 其 他 用 户 的 交互 
信息 进行 不 同 角 度 的 用 户 分 类 ,根据 用 户 的 标注 信息 
计算 用 户 标注 行为 的 量化 指标 ,从 而 探讨 不 同类 型 用 
户 标注 行为 的 差异 性 。 
2.1 数据 采集 

豆 辩 网 是 国内 典型 的 社会 标注 系统 。 豆 瓣 用 户 可 
以 对 豆 汶 网 上 的 图 书 .电影 .音乐 等 资源 添加 社会 标 
签 , 同 时 也 可 以 通过 社会 标签 查找 自己 感 兴趣 的 资源 ， 
既 实 现 了 用 户 对 豆 汰 网 上 资源 的 组 织 和 管理 ,同时 也 
通过 用 户 标注 的 标签 实现 了 信息 检索 。 因 此 ,本 研究 
选取 豆瓣 图 书 的 标注 数据 作为 研究 样本 ,能 够 较 好 地 
代表 社会 标注 系统 的 特征 和 属性 。 

本 研究 的 实验 数据 均 采 自 于 豆 辩 网 的 “豆瓣 图 
书 ” ,首先 选 定 一 个 用 户 作为 采集 的 起 点 ,将 其 标注 过 


可 简化 为 用 户 通过 网 络 浏览 或 口碑 传播 等 方式 获得 某 
一 资源 ,用 户 将 该 资源 存 人 自己 合适 的 集合 中 并 用 相 
关 主 题 的 标签 标注 该 资源 两 个 步骤 。 在 获取 标注 资源 
的 过 程 中 ,用 户 间 的 交互 就 可 能 已 经 发 挥 了 作用 ,除了 
偶遇 外 ,可 能 由 于 其 他 用 户 的 标注 或 共享 使 得 用 户 发 
现 自己 感 兴趣 的 资源 ,同时 也 获取 了 其 他 用 户 为 该 资 
源 标注 的 标签 。 在 标注 资源 时 ,用 户 可 以 参考 其 他 用 
户 标注 的 标签 。 因 此 ,在 社会 标注 行为 的 整个 阶段 ,用 
户 间 的 交互 都 可 能 影响 用 户 的 标注 行为 却 无 法 被 系统 
记录 下 来 ,也 就 无 法 获取 用 户 间 是 否 进行 交互 的 数据 。 
这 也 是 在 现 有 关于 用 户 交 互 对 社会 标注 行为 的 影响 研 
究 中 ,大 多 使 用 实验 法 进行 研究 的 原因 。 但 实验 法 也 
存在 一 些 问题 ,社会 化 标注 系统 本 来 以 用 户 为 中 心 ,可 
以 充分 体现 用 户 的 自主 性 和 个 性 化 的 系统 。 通 过 实验 
很 难 获取 用 户 真 实 的 标注 动机 和 标注 行为 。 

用 户 自 定义 的 标签 一 定 程度 上 反映 了 用 户 的 行为 
和 偏好 ,用 户 根据 标签 能 很 容易 的 找到 熟人 合作 者 ， 
最 终 和 有 相同 兴趣 的 人 形成 社区 或 找到 自己 感 兴趣 的 
资源 。 豆 罗网 提供 了 用 户 间 “ 关 注 ” 的 功能 ,用 户 可 以 
在 标注 过 程 中 发 现 自己 感 兴趣 的 其 他 用 户 并 关注 , 同 
理 一 个 用 户 也 可 能 引起 其 他 用 户 的 兴趣 而 被 关注 。 关 
注 用 户 更 容易 获取 被 关注 用 户 关注 的 资源 ,标注 的 标 
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签 等 信息 ,一 定 程度 上 反映 了 用 户 之 间 的 交互 。 这 种 
相互 关注 的 关系 也 会 受到 注册 时 间 的 影响 ,因为 标注 
行为 是 一 个 持续 且 漫 长 的 过 程 ,发 现 志同道合 的 “ 朋 
友 ” 和 被 别人 发 现 都 需要 一 定 的 时 间 , 因 此 用 户 使 用 社 
会 标注 系统 的 时 间 也 一 定 程度 的 反映 了 用 户 间 交 互 的 
深浅 。 基 于 此 ,本 研究 通过 用 户 关注 其 他 用 户 的 人 数 、 
被 关注 的 人 数 和 使 用 年 限 三 个 指标 来 表征 用 户 间 的 关 
联 和 交互 特征 。 

图 1 分 别 给 出 了 用 户 关注 人 数 、 被 关注 人 数 和 使 
用 年 限 的 统计 分 布 图 ,其 中 用 户 关注 人 数 和 被 关注 人 
数 的 横 纵 坐标 分 别 取 了 对 数 。 从 图 中 可 以 看 出 ,用 户 


关注 人 数 和 被 关注 人 数 的 分 布 均 呈 现 震 律 分 布 ,关注 
人 数 和 被 关注 人 数 较 多 的 用 户 占 比较 少 , 大 多 数 用 户 
关注 的 用 户 和 关注 他 的 用 户 都 比较 少 ;而 使 用 年 限 的 
分 布 基本 服从 正 态 分 布 。 为 了 更 清晰 的 比较 关注 人 
数 、 被 关注 人 数 和 使 用 年 限 这 三 个 用 户 交 互 特 征 对 用 
户 标注 行为 的 影响 ,本 研究 将 用 户 关 注 人 数 和 被 关注 
人 数 由 高 到 低 排列 后 , 取 前 25% 代表 交互 程度 较 高 的 
组 , 取 后 25% 作 为 交互 程度 较 低 的 组 。 而 使 用 年 限 以 
众 数 8 年 作为 分 界 , 分 为 高 使 用 年 限 组 和 低 使 用 年 限 
组 。 


1 000 
= 100 
x 
O 
© 
© 
= 10 100 1000 10000 所 10 100 1000 10000 100000 ee= 7 
N KEAR Moel) 被 关注 人 数 (log10) 使 用 年 限 ( 年 ) 
@) 
oe 图 1 用 户 关注 人 数 、 被 关注 人 数 和 使 用 年 限 的 统计 分 布 


N 
2D 用 户 标注 行为 量化 指标 设计 

在 对 用 户 标注 行为 的 现 有 研究 中 ,描述 用 户 标注 
行 筋 的 量化 指标 都 是 标签 的 统计 特征 ,主要 表现 为 标 
销 和 结构 和 语义 两 个 角度 。 其 中 ， 较 多 的 研究 用 标签 
EBL .标签 重用 率 .标签 数量 等 指标 。 基 于 已 有 的 
研究 和 豆 汶 用 户 使 用 标签 的 特点 ,为 了 从 多 个 角度 量 
化 出 户 的 标注 行为 ,本 研究 选取 从 数量 角度 描述 用 户 
标注 行为 的 标签 个 数 指标 ,从 2 els aes 
行为 的 平均 标签 长 度 和 特殊 语种 标签 比 指标 ,从 语 
的 重用 率 也 会 在 一 定 程度 上 反应 用 户 的 标注 动 
BL) ,以 及 描述 用 户 标 注 行为 强度 的 指标 用 户 活路 
度 。 每 个 指标 的 具体 说 明 如 下 : 

(1) 标 签 个 数 。 用 户 标 签 个 数 是 社会 标注 行为 研 
究 中 比较 常用 的 量化 指标 。 它 指 的 是 一 个 用 户 从 注册 
到 采集 数据 时 为 止 所 使 用 的 标签 总 数 。 用 户 的 标签 个 
数 越 多 ,说 明 用 户 的 标注 积极 性 越 高 。 

(2) 平 均 标 签 长 度 。 用 户 平 均 标 签 长 度 指 的 是 每 
个 用 户 所 使 用 标签 的 平均 字符 数 ,也 是 比较 常用 的 一 
个 表征 用 户 标注 行为 的 量化 指标 。 为 了 方便 计算 ,本 
文 在 计算 标签 长 度 时 将 1 个 汉字 算 为 1 个 字符 , 1 个 
英文 字母 也 算 为 1 个 字符 。 该 指标 反映 了 用 户 在 标注 


过 程 中 对 所 标注 词语 长 度 的 偏好 。 

(3) 特殊 语种 标签 比 。 直 观 来 看 ,一 般 用 户 选 择 
标签 的 语种 都 与 社会 标注 系统 或 资源 的 语种 一 致 。 但 
在 分 析 用 户 的 标签 时 我 们 发 现 ,有 些 豆 办 网 用 户 使 用 
一 定 比 例 的 非 汉语 标签 。 这 些 标签 大 多 反应 的 是 用 户 
自身 对 资源 的 理解 或 情感 ,不 是 客观 描述 资源 的 词语 ， 
是 比较 个 性 化 的 标签 。 因 此 ,我 们 提出 了 特殊 语种 标 
签 比 这 个 量化 指标 来 描述 标签 的 结构 。 我 们 将 特殊 语 
种 标签 定义 为 含有 非 汉 语 字 符 的 标签 。 特 殊 语 种 标签 
比 表示 用 户 使 用 特殊 语种 标签 的 比例 ,在 一 定 程度 上 
反映 了 用 户 对 个 性 化 标签 的 偏好 。 

(4) 标 签 重用 率 。 标 签 重 用 率 表 示 用 户 使 用 每 个 
标签 的 频次 之 和 与 不 同 的 标签 总 数 之 比 ,因此 该 值 大 
于 或 等 于 1。 标 签 的 重用 率 不 但 反映 了 用 户 标签 的 语 
义 , 也 一 定 程度 反映 了 用 户 的 标注 动机 ,是 比较 常用 的 
描述 标签 语义 的 量化 指标 。 以 分 类 为 动机 的 用 户 更 倾 
向 于 使 用 固定 的 标签 集合 描述 资源 ,对 一 类 资源 添加 
的 标签 个 数 基 本 一 致 ,标签 的 重用 率 较 高 ;而 以 描述 为 
动机 的 用 户 ,为 每 一 个 资源 添加 的 标签 个 数 经 常 不 稳 
定 , 重 用 率 较 低 '" 。 

(5) 用户 活 跃 度 。 
描述 用 户 的 标注 积极 


尽管 标签 数量 能 够 一 定 程 度 地 
性 ,但 考虑 到 用 户 的 使 用 年 限 对 
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用 户 标签 数量 的 影响 ,本 文通 过 用 户 的 年 平均 标注 标 
签 数 描述 用 户 的 标注 强度 。 用 户 的 活跃 程度 越 高 ,说 
明 用 户 一 年 内 标注 的 标签 越 多 ,标注 强度 越 高 。 

上 述 用 户 标注 行为 量化 指标 计算 方法 说 明 如 表 1 
所 示 : 


R1 用 户 标注 行为 量化 指标 及 说 明 
a 指标 公式 
标签 数量 标签 个 数 5 不 去 重 的 标签 总 数 
标签 结构 “平均 标签 长 度 (5 标签 的 字符 数 )/ 标 签 总 数 
特殊 语种 标签 比 (5 含 非 汉 语 字 符 的 标签 个 数 )/ 标 签 总 数 
标签 语义 标签 重用 率 (S 标签 的 使 用 频次 )/( 去 重 后 的 标签 总 数 ) 
标注 强度 用 户 活跃 度 标签 总 数 / 使 用 年 限 


3 下 结果 分 析 
wy 
3 对 用 户 标 注 行为 量化 指标 分 析 


多 社会 标注 系统 是 一 个 大 众 参与 的 复杂 系统 ,而 时 
2 1000 ™, 
= 合 100F 
© = 10F 
NE.. 
= = 10 100 1 000 10 000 100 000 L 10 
DC 用 户 的 标签 数量 (log10) eee 
p 
c 
己 将 用 户 使 用 的 标签 平均 长 度 作为 横 坐 标 ,平均 标 


签 答 度 为 该 标签 长 度 的 用 户 频 次 取 对 数 后 作为 纵 坐 
标 ,得 到 了 如 图 3 所 示 的 分 布 图 。 从 图 中 可 以 看 出 ,使 
用 平均 长 度 为 1 的 标签 的 用 户 很 少 ,而 使 用 标签 平均 
长 度 为 2.3 4 的 用 户 约 占 所 有 用 户 的 94% ,几乎 61% 
的 用 户 的 平均 标签 长 度 为 3。 这 主要 是 受到 汉语 语言 
习惯 的 影响 ,因为 汉语 中 很 少 有 一 个 字 的 词语 ,大 多 数 
词语 都 由 两 个 汉字 或 四 个 汉字 组 成 ,这 就 使 得 用 户 的 
平均 标签 长 度 集中 于 2.3 4 个 汉字 。 平 均 标签 长 度 在 
5 以 上 的 用 户 仅 占 0. 06% ,说 明 有 很 少 的 用 户 用 词组 
或 句子 去 标注 资源 。 这 个 统计 结果 反映 出 用 户 标 注 行 
为 在 一 定 程度 上 符合 最 小 省 力 法 则 , 即 用 户 更 倾向 于 
选择 用 尽 可 能 少 的 汉字 标注 资源 。 

本 研究 中 提出 量化 标签 结构 的 指标 特殊 语种 标签 
比 来 描述 用 户 的 标签 集合 中 非 汉 语 标签 所 占 的 比例 。 
经 统计 发 现 ,特殊 语种 标签 比 为 0 的 用 户 数量 并 不 多 ， 


a 


律 分 布 能 够 更 真实 地 反映 复杂 系统 的 复杂 性 。 通 常 ， 
将 震 律 分 布 分 为 头 部 和 尾部 , 头 部 包含 少量 的 使 用 频 
率 较 高 的 元 素 , 尾 部 包含 大 量 的 使 用 频率 较 低 的 元 素 ， 
通常 称 为 “长 尾 ”” 。 本 研究 对 上 述 五 个 量化 用 户 标 
注 行为 的 指标 进行 了 统计 分 析 。 

图 2 给 出 了 双 对 数 坐 标 下 用 户 标 签 个 数 、 标 签 重 
j 率 和 用 户 活跃 度 的 分 布 图 。 从 图 中 可 以 看 出 ,这 三 
种 量化 指标 的 分 布 均 服 从 “长 尾 ” 分 布 。 说 明 与 Deli- 
cious , Flickr 等 典型 的 社会 标注 系统 一 样 , 豆 泊 网 上 少 
部 分 用 户 使 用 了 大 量 的 标签 ,大 部 分 的 用 户 使 用 了 少 
量 的 标签 ; 豆 办 用 户 在 使 用 标签 时 有 大 部 分 用 户 的 标 
签 重用 率 较 低 , 只 有 较 少 的 用 户 重 复 使 用 固定 的 一 些 
标签 ,这 一 定 程度 上 说 明 大 部 分 豆 锥 用 户 的 标注 动机 
是 描述 资源 ,而 不 是 组 织 和 分 类 资源 ; 豆 办 用 户 中 有 大 
部 分 用 户 的 标注 强度 较 低 ,少量 的 用 户 标 注 强度 较 高 ， 
说 明 豆 办 的 注册 用 户 中 活跃 度 高 的 用 户 较 少 。 
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图 3 用 户 平均 标签 长 度 统 计 分 布 


这 表明 绝 大 多 数 豆 辩 用 户 在 标注 时 都 使 用 了 汉语 之 外 
的 标签 。 图 4 给 出 了 特殊 语种 标签 比 的 分 布 图 ,其 尾 
部 基本 符合 “长 尾 ” 特 征 , 即 使 用 非 汉语 标签 较 多 的 用 
户 相 对 较 少 。 从 图 中 可 以 看 出 , 绝 大 多 数 用 户 的 特殊 
语种 标签 比分 布 在 0 到 0.1 范围 内 ,这 说 明 多 数 用 户 
使 用 的 标签 中 ,特殊 语种 标签 占 比 重 较 小 , 豆 办 用 户 更 
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倾向 于 使 用 汉语 标签 ,很 少 使 用 其 他 语言 .字符 和 数字 
等 ,而 其 他 语言 或 符号 的 标签 一 般 是 用 户 用 来 描述 资 
源 .表达 情感 的 个 性 化 标签 ,这 个 结果 从 形式 上 说 明了 
个 性 化 的 标签 占 比 较 少 。 但 还 是 有 极 少数 的 用 户 的 特 
殊 语种 标签 比 为 1, 即 有 用 户 使 用 了 完全 非 汉语 的 个 
性 化 标签 ,这 些 个 性 化 标签 的 存在 也 是 造成 社会 标签 
质量 较 差 ” 的 原因 之 一 。 
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SEA .用户 使 用 标签 的 分 布 “-“ ,资源 被 标注 标签 
将 分 布 .标签 使 用 频次 的 分 布 ”、 标 签 重用 率 的 分 布 
N 
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计 分 析 很 少 或 几乎 没有 。 上 述 五 个 量化 指标 的 统计 分 
析 结 果 表 明 :豆瓣 网 用 户 的 标签 个 数 、 标 签 重 用 率 和 用 
户 活跃 度 的 分 布 都 服从 短 律 分 布 , 豆 激 网 的 用 户 标注 
行为 与 其 他 社会 标注 系统 的 用 户 标 注 行 为 具有 一 致 的 
宏观 特征 ,这 进一步 说 明了 豆 锥 网 可 以 作为 研究 用 户 
标注 行为 的 平台 ; 豆 为 网 用 户 在 进行 标注 时 偏好 使 用 
字数 为 2 -4 个 汉字 的 词语 作为 标签 , 基本 符合 汉语 的 
语言 特征 。 本 文 提出 的 量化 用 户 使 用 个 性 化 标签 程度 
的 指标 特殊 标签 比 的 统计 分 布 可 以 看 出 , 绝 大 部 分 的 
豆 办 用 户 都 会 使 用 个 性 化 的 标签 ,但 是 在 标签 集中 占 
比 不 高 ,说 明 豆瓣 网 用 户 还 是 倾向 于 使 用 更 大 众 化 的 
标签 。 
3.2 用户 交互 特征 与 标注 行为 关系 分 析 

为 了 验证 用 户 的 交互 特征 是 否 回 带 来 用 户 标注 行 
为 的 差异 ,本 节 对 用 户 交 互 特征 中 的 高 低 关 注 人 数 ,被 
关注 人 数 和 使 用 年 限 等 二 分 类 别 变 量 进行 独立 样本 检 
验 。 由 于 各 类 别 中 数据 不 满足 方差 齐 性 的 条 件 ,所 以 
利用 SPSS 26 进行 两 独立 样本 Mann-Whitney U 检验 ， 
探讨 用 户 间 不 同 交 互 程度 对 用 户 标注 行为 的 影响 , 结 
RUK 2 所 示 : 


=o 表 2 不 同 交互 特征 用 户 标注 行为 的 差异 比较 
si 类 型 描述 统计 量 标签 个 数 平均 标签 长 度 ”标签 重用 率 (% ) 特殊 语种 标签 比 (% ) 标注 强度 
D> 人 < 关注 人 数 低 (N =3900) 均值 495.37 3.12 3.32 0.11 79.07 
© 中 位 数 154 2.95 1.76 0.068 26.57 
= 方差 1 141.22 0.94 5.36 0.13 178. 76 
T 高 (N =3900) 均值 1 939. 45 3.35 5.07 0.15 231.37 
re) 中 位 数 768 3.19 2.36 0.11 94, 36 
方差 4 035.48 0.91 9. 89 0.15 480. 84 
Z 值 -37.288 -16. 169 一 20. 066 —20.783 -31.768 
Sig. — .000 .000 .000 .000 .000 
被 关注 人 数 低 (N =3900) 均值 363.1 3.08 2.76 0.10 71.09 
中 位 数 122 2.94 1.65 0.06 24. 36 
方差 814.44 0.85 4.44 0.13 168. 23 
高 (N =3900) 均值 2 457.91 3.42 6.71 0.18 269.8 
中 位 数 1167 3.24 2.93 0.13 127. 67 
方差 4 526. 332 0.99 12.45 0.17 496. 97 
Z 值 -50. 666 -20. 033 -35.879 -29,997 - 40.994 
Sig. => .000 .000 .000 .000 .000 
使 用 年 限 低 (N=7725) 均值 689. 66 3.13 3.49 0.11 126. 35 
中 位 数 211 2.99 1.82 0.07 41.17 
方差 1 759.71 0.81 10.63 0.13 306. 81 
高 (N=5178) 均值 1 868. 48 3.38 5.82 0.17 184. 12 
中 位 数 802 3.2 2.61 0.12 81.5 
方差 3 786. 80 0.96 10. 84 0.16 369.41 
Z 值 = -40.344 -17.913 -30. 006 -25.505 -20. 888 
Sig. 二 一 .000 .000 .000 .000 .000 
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表 2 的 检验 结果 显示 :高 低 关 注 人 数 的 用 户 组 在 
表征 用 户 标注 行为 的 各 个 维度 上 都 有 显著 性 差异 
(Sig. <0.05) 。 从 均值 上 看 ,高 关注 人 数 用 户 组 的 标 
签 个 数 .平均 标签 长 度 .标签 重用 率 ,特殊 语种 标签 比 
和 标注 强度 均 高 于 低 关 注 人 数 用 户 组 且 相 差 较 大 。 这 

定 程度 上 是 由 于 高 低 关 注 人 数 的 定义 选取 的 是 前 后 
各 25% 的 数据 ,包含 了 极端 值 。 为 了 进一步 说 明 高 低 
关注 人 数组 在 用 户 标注 行为 的 差异 , 表 2 中 给 出 了 各 
组 各 维度 下 的 中 位 数 。 虽 然 中 位 数 之 间 的 差 值 远 远 小 
于 均值 之 间 的 差异 ,但 五 个 维度 下 ,高 关注 人 数组 还 是 
均 高 于 低 关 注 人 数组 。 

由 表 2 还 可 知 :不 同 的 被 关注 人 数 在 用 户 标注 行 
为 的 五 个 维度 上 均 存 在 显著 性 差异 (Sig. <0.05 ) 。 而 
鼎 3 同 关注 人 数 一 样 ,高 被 关注 人 数组 的 标签 个 数 、 平 
REKE, \ 标 签 重 用 率 特殊 语种 标签 比 和 标注 强度 
无 论 均 值 还 是 中 位 数 均 高 于 低 被 关注 人 数组 。 

= 中 还 给 出 了 不 同 使 用 年 限 用 户 组 用 户 标注 行 
异 分 析 结 果 , 同 关注 人 数 和 被 关注 人 数 一 样 ,高 
ee ee 


维度 显著 高 于 低 使 用 年 限 用 户 组 。 
“通过 以 上 的 差异 性 分 析 可 以 看 出 ,不 同 交互 特征 
的 拓 户 在 标注 行为 的 五 个 量化 指标 上 均 存在 显著 性 差 


注 行 为 ,是 用 户 标 注 行 为 的 影响 因素 。 
3.3 ”用 户 标 注 行为 多 元 回归 分 析 

为 了 进一步 探讨 不 同 交 互 特征 对 用 户 交 互 行为 的 
影响 强 弱 程 度 。 本 小 节 对 用 户 标注 行为 进行 多 元 回归 
分 析 。 为 了 更 精确 的 研究 用 户 交 互 特征 与 用 户 标注 行 
为 之 间 的 关系 ,在 多 元 回归 分 析 中 使 用 了 所 有 15 597 
名 用 户 的 完整 数据 集 。 
3.3.1 标签 数量 的 多 元 回归 分 析 

以 标签 数量 (TN) 为 因 变 量 ,以 关注 人 数 (CN) ,被 
关注 人 数 (CDN) 和 使 用 年 限 (UY) 作为 自 变量 ,采用 逐 
步 多 元 回归 法 进行 分 析 。 结 果 显 示 , 关 注 人 数 (CN)、 
被 关注 人 数 (CDN) 和 使 用 年 限 (UY) 均 被 纳入 回归 方 
程 。 选 择 最 优 的 回归 模型 ,回归 系数 及 显著 性 检验 结 
果 如 表 3 所 示 。 其 中 ,容忍 度 和 方差 膨胀 系数 (VIF ) 值 
可 以 检验 多 元 回归 分 析 是 否 有 多 元 共 线 性 问题 ;容忍 
度 值 越 接近 0 ,表明 变量 间 的 多 重 共 线性 问题 越 严 重 ; 
VIF 值 如 果 大 于 10, 则 表明 变量 间 有 多 重 共 线性 问 
题 ”。 本 回归 模型 的 容忍 度 值 都 大 于 0.94,VIF 值 小 
于 1.06, 表 明 不 存在 多 重 共 线 性 问题 。 下 面 对 标签 平 
HKE .标签 重用 率 .特殊 语种 标签 比 和 标注 强度 的 多 
元 回归 分 析 的 自 变 量 均 为 关注 人 数 .被 关注 人 数 和 使 
用 年 限 , 故 都 不 存在 多 元 共 线 性 问题 ,下 面 的 分 析 中 不 
再 袭 述 。 通 过 多 元 回归 分 析 , 得 到 如 下 回归 方程 : 

TN = 0.178 CN + 0.171 CDN + 0.045 UY 


说 明 用 户 间 的 交互 会 在 一 定 程度 上 影响 用 户 的 标 方程 (1) 
表 3 用 户 标签 数量 的 多 元 回归 系数 分 析 表 
"> Ae 未 标准 化 系数 (B) 标准 误 (SE) 标准 化 系数 (B) t Sig. AAS vi 
FT 常量 — 609. 663 66.479 -9.171 . 000 
= 关注 人 数 2.249 0. 100 0.178 22.569 . 000 0.949 1.054 
注册 时 间 189. 650 8.717 0.171 21.757: . 000 0.957 1.045 
被 关注 人 数 0.048 0.008 0.045 5.750 . 000 0.981 1.019 


此 外 ,通过 表 4 可 知 ,F(3,15593 ) =441. 824,P = 
0. 000 ,达到 小 于 0.001 的 显著 性 水 平 ,表明 回归 显著 ， 
说 明了 该 回归 方程 的 有 效 性 。 
表 4 ”用户 标签 数量 的 多 元 回归 方差 分 析 表 


模型 平方 和 自由 度 Hy F 显著 性 
2 980 231 260.656 441.824 .000 


回归 8 940 693 781.967 3 


残 差 105 179 333 428.046 15 593 6 745 291.697 


总 计 114 120 027 210.012 15 596 


3.3.2 平均 标签 长 度 的 多 元 回归 分 析 

oo a p 以 关注 人 数 

A a 
逐步 多 元 回归 法 进行 分 析 。 通 过 表 5 可 知 , 关 


E 


注 人 数 (CN) ,被 关注 人 数 (CDN ) 和 使 用 年 限 (UY ) 均 
被 纳入 回归 方程 。 通 过 表 6 AY AI, F (3, 15593) = 
79.73 ,P =0.000 ,达到 小 于 0. 001 的 显著 性 水 平 ,表明 
回归 显 着。 回归 方程 如 下 : 
TL = 0.044 CN + 0.017 CDN + 0.103 UY 
方程 (2) 
表 5 用 户 平 均 标签 长 度 的 多 元 回归 系数 分 析 


未 标准 化 系数 ”标准 误 ”标准 化 系数 


oe (B) (SE) (B) i 
常量 2.912 0.023 124.026 .000 
关注 人 数 0. 000 0. 000 0. 044 5.374 .000 
注册 时 间 0. 039 0.03 0. 103 12.691 000 
被 关注 人 数 6. 089E -6 0. 000 0.017 2. 084 .037 
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表 6 用 户 平 均 标 签 长 度 的 多 元 回归 方差 分 析 


模型 平方 和 自由 度 EF F 


表 8 用 户 标签 重用 率 的 多 元 回归 方差 分 析 


显著 性 模型 平方 和 自由 度 均 方 F 显著 性 
回归 201.29 3 67.1 79.73 . 000 回归 23 226. 19 3 7742. 06 71.97 . 000 
残 差 13 122.23 15 593 0. 842 残 差 1 677 426. 85 15593 107.58 
总 计 13 323.522 15 596 


3.3.3 标签 重用 率 的 多 元 回归 分 析 

以 标签 重用 率 (TR) 为 因 变量 ,以 关注 人 数 (CN)、 
被 关注 人 数 (CDN) 和 使 用 年 限 (UY) 作 为 自 变 量 ,采用 
逐步 多 元 回归 法 进行 分 析 。 回 归结 果 显 示 , 关 注 人 数 
CCN) ,被 关注 人 数 ( CDN) 和 使 用 年 限 (UY ) 均 被 纳入 
回归 方程 。 选 择 最 优 的 回归 模型 ,回归 系数 及 显著 性 
检验 结果 如 表 7 所 示 , 回 归 系 数 的 显著 性 检验 结果 均 
小 于 0.05 ,通过 检验 。 通 过 表 8 可知 ,F(3,15593) = 
79F93 ,P =0. 000 ,达到 小 于 0.001 的 显著 性 水 平 , 回 归 
;。 多 元 回归 法 得 到 如 下 回归 方程 : 
TR = 0.023 CN + 0.027 CDN + 0.104 UY 


总 计 1 700 653. 03 15596 


3.3.4 特殊 语种 标签 比 的 多 元 回归 分 析 

以 特殊 语种 标签 比 (TC ) 为 因 变 量 , 以 关注 人 数 
(CN) BEE ARK (CDN ) 和 使 用 年 限 (UY) 作为 自 变 
量 , 采 用 逐步 多 元 回归 法 进行 分 析 。 回 归结 果 显示 ,被 
关注 人 数 (CDN ) 被 排除 ,关注 人 数 (CN) 和 使 用 年 限 
(UY ) 被 纳入 回归 方程 。 选 择 最 优 的 回归 模型 ,具体 回 
归 方 程 的 回归 系数 及 显著 性 检验 结果 见 表 9。 表 9 展 
示 了 特殊 语种 标签 比 回归 模型 的 回归 系数 及 显著 性 检 
验 结果 ,显著 性 Sig. 均 小 于 0. 01 ,表明 模型 通过 显著 性 
检验 。 此 外 ,上 述 回归 模型 的 容忍 度 值 为 0.96,VIF 值 


表 10 ”用户 特殊 语种 标签 比 的 多 元 回归 方差 分 析 
回归 11.67 2 5.835 272.137 .000 
残 差 334. 357 15 594 0.021 
总 计 346. 027 15 596 


量 , 采 用 逐步 多 元 回归 法 进行 分 析 。 结 果 显 示 ,关注 人 
数 (CN) 被 关注 人 数 ( CDN) 和 使 用 年 限 (UY ) 均 被 纳 
入 回归 方程 。 选 择 最 优 的 回归 模型 ,回归 系数 及 显著 
性 检验 结果 如 表 11 所 示 。 回 归 系 数 的 显著 性 检验 结 
果 Sig. 均 小 于 0.01, 通 过 显著 性 检验 。 得 到 如 下 回归 
方程 : 
TA = 0.185 CN + 0.04 CDN + 0.032 UY 
方程 (5) 


in| 


为 1.041 ,表明 不 存在 多 元 共 线 性 问题 。 通 过 表 10 可 
方程 (3) | 知 ,F(2,15594) =272. 137,P = 0. 000 ,达到 小 于 0. 001 
表 7 用户 标签 重用 率 的 多 元 回归 系数 分 析 的 显著 性 水 平 ,表明 回归 显著 。 利 用 回归 分 析 法 得 到 
未 标准 化 系数 。 标准 误 。 ”标准 化 系数 i 回归 方程 为 : 
ie = (B) TC = 0.039 CN + 0.172 UY 方程 (4) 
0.964 0.265 3.632 000 Hada O 
3.3.5 用户 标注 强度 的 多 元 回归 分 析 
0.001 0.000 0.023 2.759 .006 vais Boa 
0.447 0.035 0. 104 12.829 .000 以 用 户 标 注 强度 (TA ) 为 因 变 量 ,以 关注 人 数 
0.000 0.000 0.027 3.329 001 (CN) .被 关注 人 数 (CDN ) 和 使 用 年 限 (UY) 作 为 自 变 
表 9 用 户 特 殊 语种 标签 比 的 多 元 回归 系数 分 析 
未 标准 化 系数 (B) 标准 误 (SE) 标准 化 系数 (B) t Sig. 容忍 度 VIF 
0.053 0. 004 14.042 .000 
0. 000027 0. 000 0.039 4.867 .000 0.96 1.041 
0.010 0. 000 0.172 21.389 .000 0.96 1.041 


表 11 用 户 标 注 强度 的 多 元 回归 系数 分 析 


未 标准 化 系数 ”标准 误 ”标准 化 系数 


nen (B) (SE) (B) ue 
常量 64. 580 8. 094 7.979 .000 
关注 人 数 0.278 0.012 0. 185 22.924 .000 
注册 时 间 5.245 1.061 0.040 4.942 . 000 
被 关注 人 数 0. 004 0.001 0.032 4.072 .000 


此 外 ,通过 表 12 可 知 ,F(3,15593) = 223.63,P = 
0. 000 ,达到 小 于 0. 001 的 显著 性 水 平 ,表明 回归 显著 ， 
说 明了 该 回归 方程 是 有 效 的 。 
表 12 用 户 标注 强度 的 多 元 回归 方差 分 析 
模型 平方 和 自由 度 均 方 F 
回归 67 084 225.32 3 22 361 408.44 223.63 .000 


残 差 1 559 163 325.12 15 593 99 991.23 
总 计 1 626 247 550.44 15 596 


显著 性 
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4 研究 结果 讨论 


4.1 ”用 户 标注 行为 的 个 体 差异 性 
由 3.2 节 的 结果 分 析 可 以 看 出 ,用 户 的 关注 人 数 、 

被 关注 人 数 和 使 用 年 限 都 是 造成 用 户 标注 行为 差异 的 
因素 。 对 于 关注 人 数 ,被 关注 人 数 和 使 用 年 限 这 三 个 
用 户 交互 特征 而 言 , 高 关注 人 数 .被 关注 人 数 用 户 组 在 
用 户 标注 行为 的 五 个 维度 上 均 高 于 低 关 注 人 数 、 低 被 
关注 人 数 用 户 组 ,使 用 年 限 长 的 用 户 组 在 用 户 标注 行 
为 的 五 个 维度 上 均 高 于 使 用 年 限 短 的 用 户 组 。 也 就 是 
说 ,与 其 他 用 户 交 互 强度 高 的 用 户 与 交互 强度 弱 的 用 
户 在 标注 行为 上 是 有 显著 差异 的 。 产 生 这 样 结果 的 原 
因 可 能 是 ,社会 标注 系统 是 一 个 自由 开放 的 网 络 环境 ， 
其 所 包含 的 内 容 和 功能 十 分 广泛 , 且 用 户 的 标注 动机 
之 注 行为 部 是 不 受 控 的 . 如 果 用 户 要 利用 它 进行 网 


啊 ; 但 特殊 语种 标签 比 只 受到 用 户 关 注 人 数 和 使 用 年 
限 的 影响 ,被 关注 人 数 的 多 少 并 不 能 影响 用 户 的 特殊 

语种 标签 比 。 通 过 回归 方程 的 系数 发 现 :用 户 的 关注 
人 数 、 被 关注 人 数 和 使 用 年 限 对 用 户 标签 数量 的 影响 
都 是 正 向 的 ,影响 系数 分 别 为 0. 178 .0. 171 和 0.045， 
其 中 使 用 年 限 对 标签 数量 的 影响 最 小 ,这 是 因为 文中 
的 使 用 年 限 是 从 用 户 注册 豆瓣 网 的 时 间 开 始 计算 的 ， 
说 明 并 不 是 越 早 注册 的 用 户 标注 的 标签 就 越 多 ,可 能 
有 些 用 户 标注 过 后 对 标注 系统 并 不 满意 就 不 再 进行 标 
注 了 。 用 户 的 关注 人 数 、 被 关注 人 数 和 使 用 年 限 对 用 
户 的 平均 标签 长 度 的 影响 也 都 是 正 向 的 ,分 别 为 
0.044 .0.017 和 0.103 ,影响 系数 都 比较 小 。 用 户 的 关 
注 人 数 、 被 关注 人 数 和 使 用 年 限 对 用 户 的 标签 重用 率 

的 影响 系数 分 别 为 0.023 .0.027 和 0. 104 ,也 都 比较 
小 ,相对 影响 最 大 的 是 使 用 年 限 。 可 能 是 由 于 随 着 使 
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用 年 限 的 增加 ,用 户 对 社会 标注 系统 的 逐步 了 解 使 得 


Be 尝试 和 学 习 过 程 。 而 与 其 他 用 户 交 互 较 多 
ii 可 以 更 容易 .更 快速 的 完成 这 一 过 程 。 较 高 的 
重用 率 即 体现 了 这 些 用 户 的 标注 动机 不 仅仅 是 描 
壕 市 上 升 到 了 利用 标签 为 自己 感 兴趣 的 资源 分 类 ， 
较 入 的 平均 标签 长 度 和 特殊 语 吾 种 标签 比 说 明 这 些 用 户 
CPLA SAE T IET, TEM EEA AP 
。 同 时 ,对 社会 标注 系统 标注 功能 和 标 


太 性 化 标签 
注 过 程 的 熟练 BE 够 提高 用 户 对 于 标注 系统 的 满意 度 和 
兴 才 ,从 而 促使 用 户 有 更 高 的 活跃 度 ,标注 更 多 的 次 
源 E 也 因此 具有 了 更 多 的 标签 数量 

〇 然而 ,这 个 结果 也 在 一 定 程度 上 说 明了 社会 标注 
系统 的 界面 设计 和 导航 功能 有 待 改 善 。 如 果 其 界面 设 
计 的 提示 和 导航 功能 比较 完善 ,那么 用 户 就 不 需要 秦 
费 更 多 的 时 间 尝 试 和 学 习 标 注 过 程 ,即使 是 低 交互 强 
度 的 用 户 也 会 有 和 高 交互 强度 用 户 同样 的 标注 行为 。 
4.2 用户 交 互 特征 对 用 户 标 注 行为 的 影响 

对 不 同 交互 特征 的 用 户 标注 行为 的 差异 性 研究 发 
现 ,用 户 的 交互 特征 会 影响 用 户 的 标注 行为 。 在 已 有 
的 用 户 标注 行为 影响 因素 的 研究 中 并 没有 考察 用 户 交 
互 的 影响 。 本 研究 通过 进一步 的 多 元 回归 分 析 得 到 了 
初步 的 结论 。 将 用 户 的 交互 特征 作为 自 变 量 ,用 户 标 
注 行为 的 每 个 维度 作为 因 变量 ,利用 逐步 多 元 回归 法 
进行 分 析 ,形成 最 优 回归 方程 。 研 究 结 果 显 示 : 用 户 的 
关注 人 数 、 被 关注 人 数 和 使 用 年 限 都 会 对 用 户 的 标签 
数量 .平均 标签 长 度 、 标 签 重 用 率 和 标注 强度 产生 影 


j 户 开始 尝试 利用 标签 进行 资源 的 分 类 和 组 织 。 三 个 
用 户 交互 特征 对 用 户 标注 强度 影响 系数 分 别 为 0. 185, 
0.04 和 0.032, 影 响 系数 最 高 的 是 关注 人 数 。 用 户 在 
标注 系统 中 关注 了 更 多 的 其 他 用 户 , 就 有 更 大 的 概率 
从 别 的 用 户 那 里 发 现 自己 感 兴趣 的 资源 ,从 而 进行 标 

,提高 了 自身 的 标注 强度 。 用 户 的 特殊 语种 标签 比 
ee nt i een 
0.039 和 0.172。 特 殊 语 种 标签 比 在 一 定 程度 上 反映 
了 用 户 在 选择 标签 时 是 否 使 用 带 有 强烈 个 人 色彩 的 个 
性 化 标签 。 产 生 这 样 的 结果 可 能 是 由 于 在 标注 的 初始 
阶段 用 户 处 于 尝试 和 学 习 标 注 的 阶段 ,更 容易 受 其 他 
用 户 和 社会 标注 系统 推荐 标签 的 影响 ,选用 一 些 比 较 
大 众 化 的 标签 ,这 也 可 以 解释 用 户 的 关注 人 数 会 影响 
有 户 的 特殊 语种 标签 比 的 原因 。 但 随 着 标注 行为 的 熟 
练 ,用 户 开始 标注 一 些 表达 自己 的 情感 有 自身 特色 的 
个 性 化 标签 ,特殊 语种 标签 比 提高 。 


5 结论 与 展望 


为 了 更 全 面 系统 地 揭示 用 户 标注 行为 的 规律 ,为 
社会 标注 系统 提供 个 性 化 .差异 化 的 用 户 服务 提供 理 
论 依 据 ,本 文 以 豆瓣 网 作为 社会 标注 系统 的 研究 平台 ， 
从 用 户 交 互 的 角度 对 用 户 进 行 分 类 ,研究 用 户 在 社会 
标注 系统 中 与 其 他 用 户 的 不 同 关 联 和 交互 程度 下 标注 
行为 的 统计 特征 ,探讨 不 同 交互 特征 用 户 社会 标注 行 
为 的 差异 性 。 实 证 研究 发 现 ,不 同 关 注 人 数 、 被 关注 人 
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数 和 使 用 年 限 的 用 户 在 标注 行为 的 各 个 维度 上 都 存在 
差异 ,具体 结论 如 下 : 

(1) 豆瓣 网 用 户 的 社会 标注 行为 统计 特征 与 针对 
Delicious ,Flickr 等 典型 的 社会 标注 系统 已 有 的 研究 结 
论 基本 吻合 ,说 明 豆 辩 网 可 以 作为 研究 用 户 社会 标注 
行为 的 平台 。 

(2) 不 同 交互 特征 的 用 户 间 的 社会 标注 行为 存在 
显著 差异 :与 其 他 用 户 交互 比较 强 的 用 户 标签 数据 集 
包含 更 多 的 标签 ,关注 其 他 用 户 越 多 的 用 户 和 被 越 多 
用 户 关注 的 用 户 所 使 用 的 标签 数量 越 多 ;使 用 豆 辩 读 
书 年 限 越 长 的 用 户 , 其 平均 标签 长 度 和 标签 重用 率 越 
大 ,而 他 与 其 他 用 户 的 关注 关系 对 其 标签 平均 长 度 和 
标签 重用 率 的 影响 不 大 ; 用户 的 特殊 语种 标签 比 也 受 
用 总 的 使 用 年 限 影响 很 大 ,但 一 个 用 户 被 多 少 人 关注 
次 显著 的 影响 他 的 特殊 语种 标签 比 ;关注 其 他 用 户 
越 多 的 用 户 在 标注 系统 中 越 活 跃 。 
) 本 文 的 研究 结论 具有 一 定 的 理论 意义 和 实践 价 


值 -首先 ,已 有 关于 交互 对 用 户 标注 行为 影响 的 研究 


N 
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AKAN THOT BIE, KAREE 
应 图 户 真 实 的 标注 行为 。 本 文 使 用 大 量 的 真实 用 户 交 
球 视 标注 数据 从 定量 的 角度 验证 了 用 户 间 的 交互 对 用 
户 标 注 行为 的 影响 进行 了 验证 。 其 次 ,通过 研究 结果 ， 
栈 泛 为 社会 标注 系统 的 优化 提供 参考 建议 :改进 系统 


ql 
Ys | 
5 


“关注 "功能 的 导航 和 界面 ,增加 用 户 间 的 “朋友 " 关 
AET 以 在 一 定 程度 上 增加 用 户 的 活跃 度 和 标注 意愿 ; 
通 癌 增加 功能 提高 新 老 用 户 之 间 的 交互 ,从 而 提高 标 
签 的 重用 率 ,可 以 在 一 定 程度 上 降低 个 性 化 标签 , 进 一 
步 规 范 标签 的 使 用 ,从 而 提高 信息 检索 和 信息 组 织 等 
信息 服务 质量 。 

虽然 本 研究 通过 实证 研究 已 经 得 到 了 用 户 交 互 特 
征 对 用 户 标注 行为 有 一 定 影响 的 结论 ,但 仍然 存在 一 
定 的 局 限 性 。 首 先 ,本 研究 只 采集 了 豆瓣 图 书 这 一 单 
一 社会 标注 系统 的 一 部 分 用 户 的 数据 ,后 续 可 扩大 数 
据 来 源 和 数据 规模 以 便 做 进一步 研究 。 其 次 ,本 研究 
量化 用 户 标注 行为 的 维度 是 在 已 有 研究 基础 上 添加 了 
表征 用 户 选 择 标签 特征 的 特殊 语种 标签 比 ,但 在 这 些 
维度 中 并 不 包含 标签 的 具体 语义 ,因此 下 一 步 研究 可 
以 从 标签 语义 的 角度 来 量化 用 户 标注 行为 。 再 次 ,只 
用 了 关注 人 数 、 被 关注 人 数 和 使 用 年 限 这 些 间 接 的 表 
态 指标 来 表述 用 户 之 间 的 交互 特征 ,从 时 间 演 化 的 角 


度 ,用 户 之 间 的 交互 会 如 何 影 响 用 户 的 标注 行为 还 有 

待 进一步 的 研究 。 
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Research on the Influence of User Interaction on the Difference of Social Tagging Behaviors 
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Abstract; | Purpose/ significance | From the perspective of users interacting with other users in social tagging 


tems, the differences in tagging behavior of users with different interaction characteristics are explored. The study 
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Ghelpful to improve the quality of labels, and optimize the quality of information service of the social tagging sys- 
s. | Method/process | Using the sample data from Douban Book website, the quantitative indicators were select- 
(@d to study the distribution characteristics of the users’ tagging behaviors from the perspectives of number of tags, tag 
Spucture , tag semantics, tagging motivation and user activity. Three indicators including the number of users one fol- 
Slows, the number of one’s followers and one’s registered age were used to represent a user’ s degree of association 
Ghd interaction with other users , then the differences in tagging behavior of users with different interaction character- 
sastics were discussed through difference analysis. Moreover, the influence of the interaction characteristics on these 
“ferences were investigated through multivariate regression analysis. | Result/conclusion | The results shows that 
there exists significant differences in social tagging behaviors among users with different interaction characteristics ; 
users who have stronger interactions with other users have more tags; users who have followed more users and have 
more followers the greater the number of tags used; the longer the user uses Douban, the greater the average tag 
length and tag reuse, while the relationship with other users has little effect on the average tag length and tag reuse 
rate; the user’ s ratio of tags with special language is also greatly affected by the user’ s registered age, but the num- 
ber of user’ s followers does not significantly affect the user’ s ratio of tags with special language; the more users who 
follow other users, the more active they are in the tagging system. It is suggested that the social tagging system can 
take measures to strengthen the interaction between users, and regulate the users’ social tagging behavior through the 
interaction between users, thereby improve the quality of the social tags in the system. 
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